:: بازدید امروز : 2091
:: باردید دیروز : 504
:: بازدید هفته : 4547
:: بازدید ماه : 12127
:: بازدید سال : 620659
:: بازدید کلی : 1454064

سمینار جداسازی گفتار و موزیک

نوشته شده توسط : admin

دانشگاه آزاد اسلامی

واحد تهران جنوب

دانشکده تحصیلات تکمیلی

سمینار برای دریافت درجه کارشناسی ارشد

مهندسی برق – الکترونیک

عنوان:

جداسازی گفتار و موزیک

برای رعایت حریم خصوصی اسامی استاد راهنما،استاد مشاور و نگارنده درج نمی شود

تکه هایی از متن به عنوان نمونه :

(ممکن است هنگام انتقال از فایل اصلی به داخل سایت بعضی متون به هم بریزد یا بعضی نمادها و اشکال درج نشود ولی در فایل دانلودی همه چیز مرتب و کامل است)

چکیده

پردازش گفتار با توجه به کاربردهای وسیع آن در ارتباطات، تبادل اطلاعات میان انسان و ماشین مانند روبات ها، صنعت مخابرات، سمعک ها، به کارگیری ماشین در ترجمه مکالمات از یک زبان به زبان دیگر، ابزارهای آموزشی و دیگر محصولات تجاری مورد توجه قرار گرفته است. دهه اخیر شاهد پیشرفت چشمگیری در این عرصه بوده است. سیستم ها و الگوریتم هایی که با عملکرد بالا در آزمایشگاه پیاده سازی شده اند، به سمت دنیای واقعی در حال حرکت هستند.

جداسازی یا افتراق بین گفتار و موسیقی (SMD) از جمله موضوعاتی است که در دهه اخیر، مطالعات زیادی روی آن انجام شده است. از کاربردهای آن می توان به تشخیص کانال های رادیویی که فقط موسیقی پخش می کنند اشاره کرد. همچنین می تواند به عنوان بخش اولیه در بازشناسی خودکار گفتار محسوب شود.

به طور کلی اغلب کارهایی که در این زمینه انجام شده است شامل دو مرحله می باشد: 1- استخراج ویژگی قطعه صوتی که تمایز بین گفتار و موسیقی را بیان می کند 2- طبقه بندی قطعه صوتی با توجه به ویژگی. در بعضی رویکردها از یک ویژگی استفاده می شود ولی در برخی دیگر از چند ویژگی. از جمله این ویژگی ها می توان به نرخ عبور از صفر، ضرائب کپسترال، ضرائب کدینگ پیش خطی و… اشاره کرد. طبقه بندی کننده هایی که برای این کار استفاده می شوند نیز طبقه کننده های مرسوم مانند مدل مارکوف پنهان، ماشین بردار پشتیبان، گوسی و شبکه های عصبی و… می باشند.

مقدمه

پیشرفت های قابل توجه فن آوری در طی دهه های گذشته به طور چشمگیری طریقه ارتباط برقرار کردن مردم با بسیاری از منابع مختلف اطلاعات و سرگرمی را تغییر داده است. کاربران فن آوری های مدرن، در ارتباط با انواع رسانه ها از یک حالت انفعال به وضعیت فعال منتقل شده است. همین طور که مقادیر داده ای در دسترس افزایش می یابد، تکنیک های کارآمد داده گردانی نیز لازم می شود.

در چند سال گذشته داده های صوتی به میزان زیاد از منابع در دسترس مانند پایگاه داده ها، برنامه های پخش و اینترنت ایجاد شده اند. بخاطر این که، توجه ویژه ای به توسعه استراتژی های جابجایی داده اختصاص داده شده است. لذا، افتراق گفتار / موسیقی (SMD) به عنوان یکی از اهداف مهم به شمار می رود.

برای اهداف مختلفی می توان از یک SMD کارآمد بهره مند شد. از این ابزار می توان برای انتخاب براساس محتوا در مجموعه برنامه های پخش استفاده کرد. نمونه ای از این نوع کاربرد، انتخاب ایستگاه های رادیویی است که در واقع فقط موسیقی پخش می کنند. همچنین SMD قسمت اساسی تشخیص خودکار گفتار (ASR) و رونویسی موسیقی اتوماتیک (AMT)، که اغلب نیاز به تجزیه و تحلیل داده های صوتی بی ساخت یا نامعلوم دارند. در مورد ASR، بخش گفتار فقط باید در نظر گرفته شود، در حالی که در AMT باید نمونه های موسیقی مورد توجه قرار گیرند. لذا مهم است که سیگنال قبل از ورود به این سیستم ها به طور صحیح قطعه بندی شود. در نهایت نیز، توجه داشته باشید که دستگاه های مدرن کمک شنوایی اغلب شامل الگوریتم هایی هستند که عملکرد دستگاه را با توجه به نوع صدایی که به گوش می رسد تغییر می دهد. در این مورد، SMD خوب می تواند مؤثر باشد.

بیشتر تکنیک های SMD پیشنهاد شده تاکنون، نتایج خوبی داشته اند، اما هنوز هم چند نکته خصوصاً راجع به توانمندی به شرایط نامعلوم یا آموزش ندیده، موضوعی برای پیشرفت و توسعه این سیستم ها می باشند.

همه استراتژی های تبعیض بین گفتار و موسیقی در دو نکته مشترک هستند: استخراج ویژگی که حامل اطلاعات مربوط به سیگنال است و ترکیب یا نگاشت این ویژگی ها به یک برچسب، برای داده هایی که طبقه بندی می شوند. در زیر بحث مختصری از استراتژی خاص مورد استفاده در برخی از آثار اولیه مربوطه ارائه شده است.

ساندرس یک دسته بندی کننده موزیک – گفتار برای پخش رادیویی با استفاده از ویژگی های ساده ای مانند نرخ عبور از صفر و انرژی زمان کوتاه ارائه داد. در مقاله ساندرس برای رسیدن به دقتی برابر 98% طول پنجره برابر 2/4 ثانیه در نظر گرفته شد. در همین زمان اسچیرر و همکارش ویژگی های بیشتری را برای دسته بندی صوتی در نظر گرفتند و آزمایشات خود را بر روی انواع مدل های طبقه بندی کننده مدل مخلوط گوسی (GMM)، شبکه های عصبی مصنوعی انتشار خطا به عقب (BP-ANN) و k نزدیک ترین همسایه (KNN) انجام دادند. با به کارگیری پنجره یکسان (2/4 ثانیه) برای آزمایشات، نرخ خطا برابر 1/4 درصد گزارش شده است. این در حالی است که در صورت به کارگیری پنجره کوچکتر و یا در نظر گرفتن نویز و صداهای محیطی نتایج رضایت بخش نمی باشد.

در این مجموعه سعی شده است که به چند نمونه از کارهایی که در سال های اخیر انجام شده است، پرداخته شود. در این رویکردها از ویژگی های جدیدتری استفاده شده است و از طبقه بندی کننده های مختلفی نیز بهره جسته اند. در ابتدا در فصل اول، برای آشنایی با مفاهیم پایه پردازش گفتار، برخی از مفاهیم و اصطلاحات مورد نیاز بیان شده است. در فصول بعدی نیز رویکردها و نتایج شبیه سازی برخی از روش ها بیان شده است.

برای دانلود متن کامل اینجا کلیک کنید.